Для анализа химической активности соединений была использован принцип молекулярного подобия. В его основе лежит идея, что структурно схожие молекулы предположительно обладают сходной активностью. Поиск структурного сходства молекул основан на доле функциональных групп, которые присутствуют одновременно в обеих молекулах. Для описания молекул были использованы molecular fingerprints (Morgan Fingerprints), которые содержат информацию о присутствии или отсутствии определенных признаков в химическом соединении, например, фрагментов. Пространства fingerprints были визуализированы с помощью различных методов уменьшения размерности, таких как PCA, t-SNE и UMAP. Структурное сходство двух молекул чаще всего оценивается путем вычисления коэффициента Танимото (Tc, tanimoto_similarity). Для наглядности, были построены распределения Tc. При кластеризации малых молекул сходство внутри каждого кластера определяется коэффициентом Танимото. При кластеризации был использован алгоритм, предложенный в статье: Unsupervised Data Base Clustering Based on Daylight's Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Для наглядности, была проведена иерархическая кластеризация с использованием ранее подсчитанные коэффициенты Танимото. Результаты были представлены в виде дендрограмм.
| a | ![]() |
b | ![]() |
c | ![]() |
| d | ![]() |
e | ![]() |
Результаты анализа соединений top50 L1000FWD: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.
| a | ![]() |
b | ![]() |
c | ![]() |
| d | ![]() |
e | ![]() |
Результаты анализа соединений top50 iLINCS: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.
| a | ![]() |
< |
Результаты анализа соединений top50 iLINCS: (a) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA с отмеченным кластером.
Результаты кластеризации для top50 iLINCS. Соединения из кластера PCA:
| pert_id | name | molecular formula | chemical structure |
|---|---|---|---|
| BRD-K80527266 | Triacsin C | C11H19N3O | |
| BRD-K51418664 | BIM0133 | C15H18N4O5 | |
| BRD-K89375097 | Pirenzepine | C19H21N5O2 | |
| BRD-K89839824 | Raltitrexed | C21H22N4O6S | |
| BRD-K12621773 | MLS002699918 | C21H16N4O | |
| BRD-K34098590 | Ticrynafen | C13H8Cl2O4S | |
| BRD-K32644160 | SMR000178575 | C17H12N4S | |
| BRD-K33164466 | SUGA1_008424 | C25H30N2O7S | |
| BRD-K48598367 | BRD-K48598367 | C17H15FN2O3S | |
| BRD-K12762134 | XAV 939 | C14H11F3N2OS | |
| BRD-K98762074 | HG6-64-1 | C32H34F3N5O2 | |
| BRD-K57033106 | Tripelennamine | C16H21N3 | |
| BRD-K92723993 | Imatinib | C29H31N7O | |
| BRD-K60866521 | Idelalisib | C22H18FN7O | |
| BRD-K78431006 | Crizotinib | C21H22Cl2FN5O | |
| BRD-K19687926 | Lapatinib | C29H26ClFN4O4S | |
| BRD-K89046952 | Cyclacillin | C15H23N3O4S | |
| BRD-K84924563 | SCHEMBL13991002 | C6H10N3O3 | |
| BRD-K70401845 | Erlotinib | C22H23N3O4 | |
| BRD-A34006693 | Suprofen | C14H12O3S | |
| BRD-K58972465 | CID 75060947 | C14H13N3O3 | |
| BRD-A14966924 | Alaproclate | C13H18ClNO2 | |
| BRD-K20141153 | Atomoxetine | C17H21NO | |
| BRD-A68274214 | MEGXP0_001030 | C20H28O3 | |
| BRD-K58547240 | STK568087 | C20H25N5O2 | |
| BRD-K68191783 | SCHEMBL15556278 | C23H18F3N5O3 | |
| BRD-K82395301 | AG-205/40776311 | C25H27ClN2O5 | |
| BRD-K37340241 | FPA1_000240 | C25H36N4O5S | |
| BRD-K33106058 | Cytarabine | C9H13N3O5 | |
| BRD-K03176945 | CBKINASE1_008949 | C22H27NO6S | |
| BRD-A06935312 | AC1Q5RFA | C31H48O6 | |
| BRD-K90864987 | Cobalt (Ii) Chloride | Cl2Co |
| a | ![]() |
b | ![]() |
c | ![]() |
| d | ![]() |
e | ![]() |
Результаты анализа соединений top50 CLUE: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.
| a | ![]() |
b | ![]() |
Результаты анализа соединений top50 CLUE: (a) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA с рассмотренными кластерами. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP с рассмотренными кластерами.
Результаты кластеризации для top50 CLUE:
| pert_id | name | Chemical formula | chemical structure | cluster PCA | cluster UMAP |
|---|---|---|---|---|---|
| BRD-K47943470 | tyrphostin-51 | C13H8N4O3 | 1 | 1 | |
| BRD-K39063656 | BRD-K39063656 | C29H33FN2O5S | 3 | 2 | |
| BRD-K25974714 | BRD-K25974714 | C30H49N3O7S | 4 | 2 | |
| BRD-K74537058 | BRD-K74537058 | C25H38N4O5 | 3 | 2 | |
| BRD-K56183302 | BRD-K56183302 | C22H32N6O4 | 3 | 2 | |
| BRD-K74598339 | BRD-K74598339 | C28H40N4O5 | 4 | 2 | |
| BRD-K17410712 | BRD-K17410712 | C29H50N4O7S | 4 | 2 | |
| BRD-K87412446 | BRD-K87412446 | C30H52N4O5 | 4 | 2 | |
| BRD-K82842087 | BRD-K82842087 | C25H21N5O2S2 | 1 | 1 | |
| BRD-K64418159 | BRD-K64418159 | C29H34N4O5 | 3 | 1 | |
| BRD-K75648723 | BRD-K75648723 | C33H55N5O6 | 4 | 2 | |
| BRD-K95922469 | BRD-K95922469 | C25H35N5O5 | 2 | 2 | |
| BRD-K36241360 | BRD-K36241360 | C35H52N4O6 | 4 | 2 | |
| BRD-K27982554 | BRD-K27982554 | C30H51N3O6S | 4 | 1 | |
| BRD-K34311186 | BRD-K34311186 | C25H35N5O5 | 2 | 1 | |
| BRD-K99803997 | BRD-K99803997 | C23H26N4O3 | 1 | 1 | |
| BRD-K97829610 | BRD-K97829610 | C20H29N3O5 | 1 | 2 | |
| BRD-K95190454 | BRD-K95190454 | C27H31N5O4 | 2 | 1 | |
| BRD-K90074540 | BRD-K90074540 | C32H39N5O5 | 3 | 2 | |
| BRD-K87730884 | BRD-K87730884 | C29H32N4O5S | 2 | 2 | |
| BRD-K84505894 | BRD-K84505894 | C24H35N5O5 | 3 | 2 | |
| BRD-K60027289 | BRD-K60027289 | C28H36N4O4 | 1 | 2 | |
| BRD-K56990873 | BRD-K56990873 | C28H38FN3O4 | 2 | 2 | |
| BRD-K53798768 | BRD-K53798768 | C26H34N2O8S2 | 3 | 1 | |
| BRD-K52032805 | BRD-K52032805 | C24H33FN2O4S | 3 | 1 | |
| BRD-K51848823 | BRD-K51848823 | C26H32N4O4 | 3 | 1 | |
| BRD-K48598367 | BRD-K48598367 | C17H15FN2O3S | 1 | 2 | |
| BRD-K35424586 | SA-247714 | C33H43N5O4 | 3 | 1 | |
| BRD-K29458822 | BRD-K29458822 | C20H29N3O6S | 3 | 2 | |
| BRD-K23240038 | BRD-K23240038 | C26H29FN4O5S | 1 | 1 | |
| BRD-K19357327 | BRD-K19357327 | C23H35N3O5 | 2 | 2 | |
| BRD-K13779607 | BRD-K13779607 | C17H19F3N2O5 | 1 | 2 | |
| BRD-K13765840 | BRD-K13765840 | C24H34N6O6 | 3 | 1 | |
| BRD-K07995125 | KU-C104487 | C24H25N5O3 | 1 | 1 | |
| BRD-K07303502 | arachidonyl-trifluoro-methane | C21H31F3O | 1 | 1 | |
| BRD-A90643929 | BRD-A90643929 | C51H47N3O7 | 1 | 1 | |
| BRD-K73789395 | ZM-336372 | C23H23N3O3 | 1 | 1 | |
| BRD-K71879491 | tretinoin | C20H28O2 | 1 | 1 | |
| BRD-K35188988 | BRD-K35188988 | C27H42F3N3O5 | 4 | 2 |
| a | ![]() |
b | ![]() |
c | ![]() |
| d | ![]() |
e | ![]() |
Результаты анализа соединений top50 TopoCMap: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.
| a | ![]() |
b | ![]() |
c | ![]() |
| d | ![]() |
e | ![]() |
Результаты анализа соединений, полученных объединением top50 всех инструментов: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.